智能论文笔记

TunBERT: Pretrained Contextualized Text Representation for Tunisian Dialect

Abir Messaoudi , Ahmed Cheikhrouhou , Hatem Haddad , Nourchene Ferchichi , Moez BenHajhmida , Abir Korched , Malek Naski , Faten Ghriss , Amine Kerkeni

分类：自然语言处理 | 机器学习

2021-11-25

预先训练的上下文化文本表示模型学习自然语言的有效表示，以使IT机器可以理解。在注意机制的突破之后，已经提出了新一代预磨模的模型，以便自变压器引入以来实现了良好的性能。来自变压器（BERT）的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功，但大多数可用的型号已经在印度欧洲语言中培训，但是对代表性的语言和方言的类似研究仍然稀疏。在本文中，我们调查了培训基于单语言变换器的语言模型的可行性，以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务，方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据（维基百科，文章等）更方便这些非标准化语言。此外，结果表明，相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后，我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。

translated by 谷歌翻译